Apprentissage actif dans les processus décisionnels de Markov partiellement observables L'algorithme MEDUSA

نویسندگان

Robin Jaulmes

Joelle Pineau

Doina Precup

چکیده

RÉSUMÉ. Nous cherchons à adapter le cadre des Processus Décisionnels de Markov Partiellement Observables (POMDP) aux réalités de la robotique, pour établir une méthode qui effectue une prise de décision et un apprentissage optimaux lorsque l’agent ne dispose que d’un modèle approximatif d’un environnement non stationnaire. La méthode suppose l’existence d’un opérateur extérieur (oracle), capable d’observer et de révéler l’état caché du POMDP pendant la phase d’apprentissage. Pour résoudre cette problématique de manière approchée, nous proposons l’algorithme MEDUSA, qui confronte le modèle initial à l’expérience directe, et avec l’aide d’un nombre restreint de requêtes, parvient à obtenir rapidement le comportement optimal. Nous montrons comment MEDUSA prend en compte des environnements non stationnaires, et comment il peut s’accomoder de requêtes imprécises.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre. Étude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving

RÉSUMÉ. Cet article présente les résultats expérimentaux obtenus avec une architecture originale permettant un apprentissage générique dans le cadre de processus décisionnels de Markov factorisés observables dans le désordre (PDMFOD). L’article décrit tout d’abord le cadre formel des PDMFOD puis le fonctionnement de l’algorithme, notamment le principe de parallélisation et l’attribution dynamiq...

متن کامل

Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés Apprendre une extension sélective du passé

We present a new algorithm that extends the Reinforcement Learning framework to Partially Observed Markov Decision Processes (POMDP). The main idea of our method is to build a state extension, called exhaustive observable, which allow us to define a next processus that is Markovian. We bring the proof that solving this new process, to which classical RL methods can be applied, brings an optimal...

متن کامل

Prise de décision en temps-réel pour des POMDP de grande taille

RÉSUMÉ. Cet article présente une méthode d’approximation pour les processus décisionnels de Markov partiellement observables (POMDP) qui est basée sur une recherche en profondeur pour la planification dans un environnement temps-réel dynamique. L’idée de base de notre approche, appelée RTBSS (Real-Time Belief Space Search), est d’éviter de calculer des politiques complètes pour des POMDPs. Cett...

متن کامل

Apprentissage par Renforcement : Au delà des Processus Décisionnels de Markov (Vers la cognition incarnée)

dernières années dans des contextes mono et multi-agents, mais aussi robotique. L'analyse de ces travaux et de l'état de l'art du domaine me conforte dans l'idée que la principale diculté pour l'agent est bien celle de trouver des représentations adaptées, utiles et pertinentes. J'argumente que l'on se retrouve face à une problématique fondamentale de la cognition, intimement liée aux problèmes...

متن کامل

Apprentissage actif pour l'annotation de documents

RÉSUMÉ. Dans le cadre du projet LegDoc au Centre Européen de Recherche de Xerox, nous avons développé des composants pour l’annotation sémantique de documents semi-structurés. Alors que certaines entités sémantiques ont une forme régulière et peuvent être facilement extraites, d’autres collections plus complexes et hétérogénes nous ont amenés à déployer des méthodes d’apprentissage automatique....

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

Revue d'Intelligence Artificielle

دوره 21 شماره

صفحات -

تاریخ انتشار 2007

Apprentissage actif dans les processus décisionnels de Markov partiellement observables L'algorithme MEDUSA

نویسندگان

چکیده

منابع مشابه

Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre. Étude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving

Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés Apprendre une extension sélective du passé

Prise de décision en temps-réel pour des POMDP de grande taille

Apprentissage par Renforcement : Au delà des Processus Décisionnels de Markov (Vers la cognition incarnée)

Apprentissage actif pour l'annotation de documents

عنوان ژورنال:

اشتراک گذاری